查看原文
其他

COLING 2020 | 面向医疗对话的摘要生成

李东明 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者|李东明

学校|香港中文大学(深圳)本科生

研究方向|文本生成



 

摘要


医疗对话是一类特殊的对话形态,属于任务驱动型的对话场景,通常包含极为关键的病人求诊信息以及医生的诊断过程及建议等。针对医疗对话生成摘要有巨大的实际价值,可以方便总结就诊或咨询过程,形成有效、简洁的核心记录。

然而,针对该场景的摘要生成的侧重点与普通文档不同,医疗对话的摘要生成更注重于几个关键信息,即病人症状描述与医生的治疗意见。该文提出了一个新的医疗对话的摘要生成的数据集,并在此基础上提出了一个抽取式对话摘要生成模型。

  

论文标题:

Summarizing Medical Conversations via Identifying Important Utterances


论文链接:

https://www.aclweb.org/anthology/2020.coling-main.63.pdf


代码链接(含数据集):

https://github.com/cuhksz-nlp/HET-MC




任务与数据集

医疗对话的摘要生成是一种特殊的文本摘要生成,其目的是从患者与医生的对话中提取对话的主要信息并生成对话的摘要以供快速集中的信息整合或者为其他潜在医疗咨询找到相关的内容。与通用领域的对话不同,医患之间的对话往往有单一且明确的目的和内容(患者提出一个医疗相关的问题或症状描述,医生与病人沟通并提供诊断建议)。

因此,与普通的文本摘要生成相比,医疗对话摘要着重于患者的问题与医生的治疗建议,而更少关注其中一些非医疗的信息。通常患者的问题与医生的治疗建议往往都直接出现在对话中,因此医疗对话需要生成的摘要中往往可以在对话过程中找到足够的信息。

为了实施这一研究,文章从知名网络医疗资讯平台爬取源数据(https://www.chunyuyisheng.com/pc/qalist/?page=5#hotqa),并构建了一个包含 4.5 万对话的医疗对话数据集(详见该文 Github 链接),针对的都是中文医疗对话场景。

在这些具体对话中,患者一般先向医生提出问题,医生与患者之间进行多轮对话不断了解病情,同时在了解的过程中不断根据已知的情况提出医疗建议。对话结束后,医生会对患者的问题和医疗建议分别进行总结,以供其他患者参考。

下图展示了一个对话的例子,其中,中文是原始数据,英文部分为对应的翻译。在这个例子中,医疗建议的总结有两种,一种基本上就是把医生回答中的关键句子拼接在一起(SUM2-A),另一种是医生根据情况总结的医疗建议,其中可能会出现对话中没有出现的词语(SUM2-B)。在最终数据集中,一般对话都有 SUM2-A,只有一部分包含 SUM2-B。


由于医疗对话摘要所重点关注的两个内容——患者问题与诊断建议,往往都直接出现在对话当中,且医患对话的摘要需要足够的信息,不难想到使用抽取式的摘要生成方法从对话中识别重要句子并将它们抽取出来,并组合成摘要。

为了可以让模型通过有监督的方法学习哪些待抽取句子是重要的,就需要为对话中每一个句子标注一个重要性的标签,把这些标签视为银标准(silver standard),从而可以利用这些标签来训练抽取式摘要模型。

为此,该文首先针对对话中每一个句子,基于该句子分别与 SUM1 和 SUM2 的 ROUGE-1 分数标注该句子的注重要性。一般地,ROUGE-1 分数越高,表明该句子与 SUM1(或 SUM2)的相似度越高,也因此更有可能成为重要的句子。

因此,该文设置一个阈值,用于判断一个句子对 SUM1 和 SUM2 的重要性。如果一个句子对 SUM1 和 SUM2 的ROUGE-1 分数均高于阈值,那么认为该句子对 ROUGE-1 分数更高的摘要更重要。通过这种方式,该文把对 SUM1 和 SUM2 重要的句子分别标注为 PD 和 DT,并把其它不重要的句子记为 OT。



模型

该文提出的方法是抽取式的,因此模型的目的在于给对话中的每个句子打上标签(tagging),判别该句是否是重要的,并将判定为重要的句子拼接成摘要。常见的对话模型主要采用一个两层的序列模型框架,比如使用一个词级别编码器从句子中的词得到句子的表征,再用一个句级别的编码器从句子的表征中对上下文句子建模,预测每个句子的重要性标签(即 PD,DT 和 OT)。

该文在这种框架的基础上,在词级别编码器和句级别编码器之间增加了记忆模块进行增强(模型图如下所示)。



该文提出的层次编码标注模型(hierarchical encoder-tagger model, HET)由三大部分组成:词级别编码器,记忆模块,句级别编码器。该文模型的词级别编码器采用的是 BERT(和 ZEN)。该文以 BERT(和 ZEN)输出的对 [CLS] 字符的表征作为句子的表征(记第 i 个句子的表征为 ),并把句子表征送入记忆模块。

该文的记忆模块采用端到端的记忆神经网络(end-to-end memory networks),旨在利用上下文的对话中与当前句子相关的句子所包含的信息增强当前句子的表征,从而实现更好的对上下文句子信息的抽取,进而实现更好的标注。

作者使用一个 LSTM 词级别编码器,对对话中所有的句子分别编码,得到每个句子的向量表征,并将其视为记忆神经网络中的值(value),记其中第 j 个句子的表征为

而后,基于当前句与其它句子的相似度(该文采用 的内积),对相应的值(即 )加权,并把加权后得到的值的加权和,串联到当前句子 BERT(和 ZEN)数据的表征上(即 ),并将得到的向量送入句级别编码器。

句级别编码器由一个 LSTM 构成,LSTM 的输出经过一个线性变换后,再通过一个 softmax 或者条件随机场(CRF)标注器对句子的重要性进行标注。


实验结果与分析

该文作者在数据集上做了大量的实验,主要包括尝试不同的句级别编码器(不使用句级别编码器,LSTM,BiLSTM),不同的标注器(softmax,CRF),不同的预训练模型(BERT,ZEN),是否使用记忆模块。不同设定下的实验结果见下表。该表既汇报了模型在银标准的句子标签上预测的 F 值,也汇报了对于摘要本身的 ROUGE 分数。


总体来看,在绝大多数设定下,使用记忆神经网络能够有效提升模型识别重要句子的能力,尤其是对于医生的诊断建议(即 SUM2)来说,使用记忆神经网络的模型在所有的设定下,其 ROUGE 分数均超过没有使用记忆神经网络的基础模型。



此外,该文还与现有的其他典型抽取式摘要生成模型进行了比较,在医疗对话场景中,该文提出的 HET 模型显著优于之前的方法。


更多阅读




#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存